APPEARED

Rows

Histograma

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Densidad

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Boxplot

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Q-Q

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Datos

LAST ACTIVITY

Rows

Histograma

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Densidad

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Boxplot

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Q-Q

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Conclusiones

Teniendo en cuenta las graficas de la variable ‘lastActivity’ podemos inferir que:

  • Tanto el histograma como el gráfico de densidad exhiben un sesgo hacia la derecha, lo que indica una clara asimetría en la distribución de los datos y una cola más larga hacia los valores superiores, evidenciando que la distribución no es normal, afirmacion que es ratficada en el grafico Q-Q

  • Por otro lado, aunque el Boxplot no muestra valores atípicos, sí revela un sesgo hacia los valores altos de la variable.

Datos

NUMBER OF USERS

Rows

Histograma

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Densidad

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Boxplot

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Q-Q

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Conclusiones

Considerando las gráficas analizadas, se puede concluir que la variable ‘numberOfUser’ exhibe características distintivas:

  • Tanto el gráfico Q-Q como el Boxplot revelan la existencia de numerosos valores atípicos (outliers). Esta observación sugiere que los datos presentan una gran variabilidad y no se distribuyen normalmente, ya que los valores extremos afectan la normalidad de la distribución.

  • Además, el histograma y el gráfico de densidad muestran un sesgo notable hacia la izquierda. Este sesgo indica que hay una concentración significativa de valores en el extremo inferior de la escala, lo que contribuye aún más a la falta de normalidad en los datos.

Datos

TYPE

Rows

Grafico de barras

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Conclusiones

En este análisis de la variable “type” en nuestro conjunto de datos, se identifico patrones y tendencias significativas que arrojan luz sobre la composicion de esta misma. Destaca en gran medida la presencia de la categoría “pl”,es decir, lenguaje de programacion que constituye la categoría dominante con una frecuencia absoluta de 1660 elementos, representando aproximadamente el 77.61% del conjunto lo cual nos dice su concurrencia en toda la base datos y lo importancia en la misma.

Datos

COUNTRY

Rows

Grafico de torta

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Conclusiones

se observa una distribución diversa de países de origen entre los elementos de nuestro conjunto. Entre los países más representados, destacan Estados Unidos, Reino Unido y Canadá, que juntos conforman la mayoría de las entradas. Esto sugiere que nuestro conjunto de datos tiene una fuerte presencia de elementos relacionados con estas tres naciones.

La categoría más frecuente es “United States” (Estados Unidos), con una frecuencia absoluta de 1494, lo que representa aproximadamente el 69.85% del conjunto de datos en términos de procedencia geográfica. Le sigue “United Kingdom” (Reino Unido) con una frecuencia absoluta de 85 y “Canada” (Canadá) con 69.

Datos

WEBSITE

Rows

Grafico de barras

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Conclusiones

Basado en los resultados de la tabla de frecuencia absoluta y relativa de la variable “website”, se puede concluir que la mayoría de los lenguajes de programación en nuestro conjunto de datos tienen un sitio web asociado. Específicamente, el 67.42% de los lenguajes de programación no tienen un sitio web, mientras que el 32.59% si lo tienen.

Esto sugiere que no hay tanta presencia de sitios web asociados a los lenguajes de programacion no es común entre los lenguajes de programación en el conjunto de datos. La existencia de sitios web puede ser un indicador de la accesibilidad y disponibilidad de información adicional sobre estos lenguajes, lo que puede ser valioso para los desarrolladores y la comunidad en general.

Datos

Tablas de contingencia

Rows

Tablas de contigencia 1

Argentina Australia Austria Belgium Brazil Canada China Czech Republic Denmark England Finland France Germany India Israel Italy Japan Netherlands New Zealand Norway Poland Russia Scotland Spain Sweden Switzerland United Kingdom United States unknown Unknown Various
application 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 39 1 3 3
binaryDataFormat 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 16 0 0 6
database 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0
dataNotation 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 3 25 0 0 1
editor 0 1 0 0 0 1 1 2 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 23 0 0 4
esolang 0 3 0 0 0 1 0 0 0 1 0 1 2 2 1 0 0 0 0 0 1 0 0 0 0 0 1 17 0 4 0
grammarLanguage 1 2 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 22 0 0 2
library 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 4
packageManager 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 18 0 2 4
pl 1 18 6 5 9 58 5 3 11 10 5 38 47 3 6 24 22 4 5 6 8 9 3 2 17 20 76 1147 0 58 34
protocol 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0
queryLanguage 0 0 0 0 0 0 0 0 0 0 1 0 2 0 0 0 0 0 0 1 0 0 0 0 0 0 0 37 0 2 1
template 1 0 0 0 0 1 0 1 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 18 0 1 4
textDataFormat 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 17 0 2 1
textMarkup 0 1 0 1 0 3 0 1 0 0 0 1 3 0 0 0 1 1 0 0 0 0 0 0 0 1 1 38 0 4 2
xmlFormat 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 29 0 0 1

Tabla de contigencia 2

NO YES
Argentina 0 3
Australia 18 8
Austria 5 1
Belgium 2 4
Brazil 5 5
Canada 39 30
China 3 3
Czech Republic 2 5
Denmark 8 3
England 10 5
Finland 3 4
France 29 13
Germany 45 18
India 0 5
Israel 5 2
Italy 17 7
Japan 18 5
Netherlands 3 3
New Zealand 5 0
Norway 6 2
Poland 6 4
Russia 2 7
Scotland 3 0
Spain 0 4
Sweden 11 7
Switzerland 19 4
United Kingdom 62 23
United States 1065 429
unknown 0 1
Unknown 31 45
Various 20 47

Tabla de contingencia 3

NO YES
application 23 28
binaryDataFormat 15 9
database 15 4
dataNotation 21 14
editor 16 18
esolang 18 16
grammarLanguage 21 11
library 1 16
packageManager 1 25
pl 1184 476
protocol 16 5
queryLanguage 27 17
template 12 17
textDataFormat 18 5
textMarkup 25 33
xmlFormat 29 3
<<<<<<< HEAD

PREGUNTA 1

=======

INTERVALO DE CONFIANZA PARA LA MEDIA

>>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Intervalos de confianza para la media

<<<<<<< HEAD ======= >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Pregunta problema

Se tiene una base de datos con los años de aparición de los lenguajes de programación entre los años 1960 y 2023, los cuales presentan una desviación estándar de 16.28. Si se tiene una muestra aleatoria de 2139 lenguajes, los cuales en promedio aparecieron en el año 1996.63, calcule un intervalo de confianza del 90% para el verdadero año de aparición medio de los lenguajes de programación

Respuesta

    <<<<<<< HEAD
  • Para la respuesta dada, se uso un script de r para la estimacion del intervalo de confianza de la media poblacional, teniendo conocimento de la desviacion tipica de la poblacion de la variable appeared. luego para tener evidencia visual de los resultados se genero un intervalo sobre una grafica

  • Podemos concluir que con un nivel de confianza del 90% la media poblacional del año de aparicion de los lenguajes de programcion de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21

  • =======
  • Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la media poblacional, teniendo conocimiento de la desviación típica de la población de la variable appeared. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico.

  • Podemos concluir que, con un nivel de confianza del 90%, la media poblacional del año de aparición de los lenguajes de programación de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21.

  • >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19
<<<<<<< HEAD

PREGUNTA 2

=======

INTERVALO DE CONFIANZA PARA VARIANZA Y DESVIACION

>>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Intervalos de confianza para la varianza

<<<<<<< HEAD =======

Intervalos de confianza para la desviacion

>>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Rows

Pregunta problema

<<<<<<< HEAD Se tiene una muestra aleatoria de 2139 tecnologías informáticas con sus respectivas cantidades de usuarios activos en 2023, los cuales presentan una desviación típica de 190401.5. Teniendo esto en cuenta, calcule un intervalo de confianza del 95% para la varianza y la desviación estándar ======= Se tiene una muestra aleatoria de 2139 tecnologías informáticas con sus respectivos años de última modificación, los cuales presentan una desviación típica de 16.92. Teniendo esto en cuenta, calcule un intervalo de confianza del 95% para la varianza y la desviación estándar >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19

Respuesta

    <<<<<<< HEAD
  • Para la respuesta dada, se uso un script de r para la estimacion del intervalo de confianza de la media poblacional, teniendo conocimento de la desviacion tipica de la poblacion de la variable appeared. luego para tener evidencia visual de los resultados se genero un intervalo sobre una grafica

  • Podemos concluir que con un nivel de confianza del 90% la media poblacional del año de aparicion de los lenguajes de programcion de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21

DIFERENCIA ENTRE PROPORCIONES

Rows

Diferencia de proporciones

Rows

Pregunta problema

En una muestra de paises donde se les encuesto que lenguaje de tipo de lenguaje de programacion usaron, la muestra contiene 1494 de estados unidos, donde se uso el lenguaje de programacion pl 1147; y reino unido 85 donde 76 eran pl. Calcule un intervalo de confianza de 90% para la diferencia entre la proporcion entre el tipo de lenguaje de programacion en estos paises ¿Hay una diferencia significativa entre las dos proporciones?

Respuesta

  • Podemos concluir que con un nivel de confianza del 90% diferencia de las proporciones del tipo de lenguaje que mas se usaba en la epoca de nuestra base de datos se encuentra entre los valores de -0.1841 y -0.0686

  • En resumen, el intervalo de confianza indica que hay una diferencia significativa en las proporciones del tipo de lenguaje de programación entre los dos grupos, y esta diferencia sugiere que el tipo de lenguaje era más común en Estados Unidos que en el Reino Unido en la época de tu base de datos.

=======
  • Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la varianza y la desviación, teniendo conocimiento de la desviación típica de la población de la variable LASTACTIVITY. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico para los dos estadísticos.

  • Podemos concluir que, con un nivel de confianza del 95%, la varianza poblacional del último año de modificación de las tecnologías informáticas de nuestra base de datos se encuentra entre los valores de 269.96 y 304.36.

  • Por otro lado, la desviación poblacional de la variable LASTACTIVITY podemos afirmar que se encuentra en un rango de 15.95 y 17.98 con un nivel de confianza del 95%.

  • >>>>>>> 20a38b8a2ee0e3e9ede42f7c30d3f5a45c3f6c19